Статья 5115

Название статьи

ЭФФЕКТ СНИЖЕНИЯ РАЗМЕРА ТЕСТОВОЙ ВЫБОРКИ ЗА СЧЕТ ПЕРЕХОДА
К МНОГОМЕРНОМУ СТАТИСТИЧЕСКОМУ АНАЛИЗУ БИОМЕТРИЧЕСКИХ ДАННЫХ

Авторы

Волчихин Владимир Иванович, доктор технических наук, профессор, президент Пензенского государственного университета (Россия, г. Пенза, ул. Красная, 40), nit@pnzgu.ru
Иванов Александр Иванович, доктор технических наук, доцент, начальник лаборатории биометрических и нейросетевых технологий, Пензенский научно-исследовательский электротехнический институт (Россия, г. Пенза, ул. Советская, 9), ivan@pniei.penza.ru
Серикова Наталья Игоревна, инженер-программист, научно-производственное предприятие «Рубин» (Россия, г. Пенза, ул. Байдукова, 2), s.kachalin@gmail.com
Фунтикова Юлия Вячеславовна, инженер-программист, Пензенский научно-исследовательский электротехнический институт (Россия, г. Пенза, ул. Советская, 9), pniei@penza.ru

Индекс УДК

519.7; 519.66; 57.087.1, 612.087.1

Аннотация

Актуальность и цели. В настоящее время большинство отраслевых методик оценки качества данных строятся на использовании классического критерия хи-вадрат, который хорошо работает на больших тестовых выборках. При оценке качества обучающих выборок и тестовых выборок биометрических данных нет возможности использовать большие тестовые выборки, состоящие из 200 экспериментально полученных значений. Обычно для обучения и тестирования искусственных нейронных сетей используются выборки из 20 примеров. В связи с этим возникает актуальная задача снижения на порядок размеров выборки экспериментально получаемых данных при сохранении уровня достоверности результатов статистического анализа.
Материалы и методы. В работе анализируется влияние ошибки квантования биометрических данных, возникающей из-за приближения функции плотности распределения значений экспериментальных данных их гистограммой. Показано, что синтез гистограмм плотностей распределения значений значительно усиливают ошибки квантования данных, обусловленные малым числом примеров в выборке.
Результаты. Предложено отказаться от использования гистограмм в пользу аппроксимации функции вероятности появления наблюдаемых событий. Это эквивалентно переходу от статистического критерия хи-квадрат к статистическому критерию Джини. При этом на малых выборках ошибка квантования снижается до 5 раз при использовании одномерного критерия Джини. Еще большего снижения влияния ошибок квантования удается достичь, если пользоваться многомерным обобщенным критерием Джини. Доказано, что влияние ошибок квантования падает пропорционально корню размерности используемого критерия Джини.
Выводы. При переходе от одномерного хи-квадрат критерия проверки статистических гипотез к использованию многомерного критерия Джини удается существенно снизить требования к размерам обучающих и тестовых выборок биометрических данных. Появляется возможность увеличения качества обучения и тестирования искусственных нейронных сетей преобразователей биометрия-код за счет многомерного статистического контроля обучающих и тестовых выборок.

Ключевые слова

биометрические данные, статистическая обработка информации, критерий Джини, критерий хи-квадрат.

 

 Скачать статью в формате PDF

Список литературы

1. ГОСТ Р 52633.5–2011. Защита информации. Техника защиты информации. Авто-матическое обучение нейросетевых преобразователей биометрия–код доступа. – М., 2011.
2. ГОСТ Р 52633.3–2011. Защита информации. Техника защиты информации. Тести-рование стойкости средств высоконадежной биометрической защиты к атакам подбора. – М., 2011.
3. «БиоНейроАвтограф» – среда моделирования больших искусственных нейронных сетей, преобразующих данные рукописных знаков в код личного ключа доступа. Среда моделирования создана лабораторий биометрических и нейросетевых технологий ОАО «Пензенский научно-исследовательский научно-исследовательский электротехнический институт» в 2006–2014 гг. для свободного использования университетами России, Казахстана и Белоруссии . – URL: http://пниэи.рф/activity/science/noc.htm.
4. Р 50.1.037–2002/ Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии. – М. : Госстандарт России, 2002.
5. Кобзарь, А. И. Прикладная математическая статистика. Для инженеров и на-учных работников / А. И. Кобзарь. – M. : ФИЗМАТЛИТ, 2006. – 816 c.
6. Ахметов, Б. С. Алгоритмы тестирования биометрико-нейросетевых механиз-мов защиты информации Казахстан / Б. С. Ахметов, В. И. Волчихин, А. И. Иванов, А. Ю. Малыгин. – Алматы : КазНТУ им. Сатпаева,2013. – 152 с.
7. Оценка рисков высоконадежной биометрии : моногр. / Б. С. Aхметов, Д. Н. Наде-ев, В. А. Фунтиков, А. И. Иванов, А. Ю. Малыгин. – Алматы : Из-во КазНТУ им. К. И. Сатпаева, 2014. – 108 с.
8. Надеев, Д. Н. Аналитическое описание оценки вероятности появления колли-зий у нейросетевого преобразователя биометрия–код / Д. Н. Надеев // Нейроком-пьютеры: разработка, применение. – 2009. – № 6. – С. 53–55.
9. Фунтикова, Ю. В. Гипотеза X2 распределения расстояний Хэмминга для кодов биометрической аутентификации примеров образа «Свой» / Ю. В. Фунтикова, А. И. Иванов, О. С. Захаров // Труды научно-технической конференции кластера пензенских предприятий, обеспечивающих безопасность информационных технологий. – Пенза, 2014. – С. 7–8. – Т. 9. – URL: http://www.pniei.penza.ru/RV-conf/T9/С7.
10. Эйкхофф, П. Основы идентификации систем управления / П. Эйкхофф. – М. : Мир, 1975. – 680 с.
11. Руководство по биометрии : пер. с англ. / Болл Руд, Коннел Джонатан Х., Панкан-ти Шарат, Ратха Налини К., Сеньор Эндрю У. – М. : Техносфера, 2007. – 368 с.

 

Дата создания: 16.03.2015 15:19
Дата обновления: 18.06.2015 12:33